Come il cervello batte il computer nel riconoscere lo stormir delle fronde

LORENZO L. BORGIA

NOTE E NOTIZIE - Anno XVII – 28 novembre 2020.

Testi pubblicati sul sito www.brainmindlife.org della Società Nazionale di Neuroscienze “Brain, Mind & Life - Italia” (BM&L-Italia). Oltre a notizie o commenti relativi a fatti ed eventi rilevanti per la Società, la sezione “note e notizie” presenta settimanalmente lavori neuroscientifici selezionati fra quelli pubblicati o in corso di pubblicazione sulle maggiori riviste e il cui argomento è oggetto di studio dei soci componenti lo staff dei recensori della Commissione Scientifica della Società.

[Tipologia del testo: RECENSIONE]

Poi il Signore Dio piantò un giardino in Eden, a

oriente, e vi collocò l’uomo che aveva plasmato.

Il Signore fece germogliare dal suolo ogni sorta di

alberi graditi alla vista e buoni da mangiare […].

Un fiume usciva da Eden per irrigare il giardino…

[Genesi II, 8-10]

Suoni e rumori di natura appartengono alla vita delle origini di ogni creatura terrestre o, più propriamente, di ogni specie animale e, se nella memoria storica manca il ricordo dell’epoca edenica del rapporto esclusivo e diretto dei sensi dell’uomo con luce, colori, suoni e rumori del cielo e della terra incontaminata, nella memoria del nostro DNA, in termini di codice molecolare, è conservato il segreto apprendimento, affinato in milioni di anni di evoluzione, che consente al nostro cervello di riconoscere con una sensibilità stupefacente lo stormire delle foglie, il crepitio del fuoco, lo scorrere dell’acqua di un ruscello o il ticchettio di una pioggia leggera su larghe foglie d’alberi.

È impressionante verificare questa abilità nelle persone non vedenti per cause congenite: possono riconoscere il soffiare del vento all’esterno di una casa fra innumerevoli suoni mascheranti e coprenti, quali quelli che caratterizzano un party. Ma ciascuno di noi, se si mette in ascolto, può riuscirvi. Sorprende la capacità di persone anziane con alterata soglia uditiva, o di normodotati esposti a volumi sonori bassissimi, di continuare a distinguere il fruscio di rami e fogliame da suoni artificiali campionati in base ad uno spettro di frequenza quasi identico.

Similmente accade che, concependo sistemi di rilevazione acustica elettronica basati su software in grado di elaborare e discriminare suoni e rumori con elevata efficienza, si scopre, alla prova sperimentale del confronto con la capacità umana, che noi superiamo di gran lunga il sistema elettronico nel riconoscimento dei suoni di origine naturale. Come fa il nostro cervello, integrando i dati provenienti dall’organo cocleare attraverso la via acustica all’area 41 della corteccia cerebrale, a superare in sensibilità discriminativa i sistemi artificiali basati sulle conoscenze più avanzate in materia di fisica del suono e sulle più sofisticate realizzazioni ingegneristiche di rilevazione elettronica?

Per cercare di dare risposta a questo interrogativo, Monty A. Escabi, Ian Stevenson, Xiu Zhai e numerosi colleghi hanno condotto uno studio che è giunto a riconoscere un’interessante strategia seguita nell’analisi del suono, che implica un ruolo rilevante delle popolazioni del collicolo inferiore, stazione importante nella via che trasmette l’informazione acustica trasdotta dall’VIII paio di nervi cranici alla corteccia del lobo temporale. Non è irrilevante che questo lavoro, non ancora edito da PNAS USA e da poco postato nella sua anticipazione elettronica, sia stato presentato da Robert J. Zatorre del Montreal Neurological Institute presso la McGill University, uno dei massimi esperti al mondo di neurofisiologia del suono e pioniere degli studi sugli effetti emozionali e affettivi prodotti dalla musica sul cervello.

(Zhai X., et al. distinct neural ensemble response statistics are associated with recognition and discrimination of natural sound textures. Proceedings of the National Academy of Sciences USA - Epub ahead of print doi: 10.1073/pnas.2005644117, 2020).

La provenienza degli autori è la seguente: Connecticut Institute of Brain and Cognitive Sciences, University of Connecticut, Storrs, CT (USA); Electric and Computer Engineering, University of Connecticut, Storrs, CT (USA); Biomedical Engineering, University of Connecticut, Storrs, CT (USA); Psychological Sciences, University of Connecticut, Storrs, CT (USA); Bioengineering Department, School of Engineering, University of the Pacific, Stockton, CA (USA).

Dall’affascinante campo della psicologia della percezione del suono e della musica traiamo alcuni spunti che possono aiutarci a comprendere la portata dei risultati del lavoro qui recensito.

Molti stimoli acustici complessi sono riconosciuti dal nostro cervello in base all’attribuzione, presumibilmente grazie alla formazione di una memoria associativa, di una sorta di “valore di senso”. Ciò equivale a dire che, in base a caratteristiche secondarie rispetto a quelle delle onde sonore principali che li identificano, diventano per il cervello in qualche modo emblematici di una categoria di esperienza. Ad esempio, è accaduto che un ascoltatore volontario in un laboratorio di psicologia sperimentale, dopo aver ascoltato in cuffia la pronuncia di frasi o il canto dei versi di una canzone, abbia sentito una nuova esecuzione con la stessa intonazione acustica, prosodica e melodica da parte di un’altra voce, quasi identica alla precedente per spettrogramma, ma con lievissime differenze nel timbro vocale; immediatamente l’ha riconosciuta e ha esclamato: “È mia moglie, dov’è? Bello scherzo!”. Le piccole e irrilevanti differenze impresse dal timbro alle frequenze acustiche, sono state sufficienti al marito per riconoscere la voce dell’amata compagna di vita, verosimilmente perché la rappresentazione neurale di tali piccoli particolari era nel suo cervello amplificata dalla connessione con popolazioni neuroniche che rappresentano, con la loro attività, memorie di associazione con esperienze affettive ed emotive rilevanti.

Un caso speciale e particolarmente interessante, che abbiamo affrontato in passato, è il problema della consonanza fra note[1]; senza addentrarci nell’argomento delle basi cerebrali della percezione della consonanza, ricordiamo in modo semplificato cosa si intenda con questo termine: due o più suoni ascoltati simultaneamente o in successione possono generare un effetto piacevole, come accade per i suoni consonanti, o un effetto spiacevole, come accade per quelli dissonanti. Studiando le basi naturali di questo comune giudizio percettivo, Zatorre e colleghi scoprirono che la voce della madre e quella del lattante che interagisce con lei, identificata ciascuna con il tono corrispondente a una nota della scala musicale diatonica naturale, insieme costituivano un intervallo di quinta perfetto, ossia il più semplice rapporto di consonanza fra due note, dopo quello fra due note identiche (unisono), ritenuto universalmente gradevole già nell’età dell’infanzia. Si è dedotto che l’intervallo di quinta ci piace perché appartiene all’esperienza più precoce di comunicazione acustica e, con ogni probabilità, costituita sulla base di una memoria della specie.

Un’ultima osservazione, che ci ricorda la complessità di interpretazione psicologica degli stimoli acustici, riguarda ancora la voce: variazioni di volume e timbriche, come quelle di una voce alta ma resa roca o velata ad arte, come fanno alcuni cantanti, o il basso volume associato a rumori umidi appena percettibili di lingua e labbra come nei bisbigli e nei sussurri, oltre a conferire caratterizzazione canora o recitativa, inviano particolari tipi di messaggi, oggi ampiamente sfruttati nella pubblicità.

Escabi, Stevenson e Zhai hanno focalizzato l’attenzione sull’abilità umana di discriminare e riconoscere con elevata sensibilità suoni naturali quali lo scorrere dell’acqua di un torrente, lo stormire delle fronde, il rumore del vento, ma anche gli applausi di una folla di persone. In generale, queste nostre prestazioni possono considerarsi espressione di capacità fisiologica in un compito critico per la valutazione funzionale del nostro sistema uditivo, ma il valore dei processi che ne sono alla base risulta evidente quando si considera che i più sofisticati algoritmi sviluppati per riprodurre artificialmente questa abilità sono messi in seria difficoltà dagli stessi campioni acustici che i soggetti umani volontari degli esperimenti riconoscono con estrema facilità e sicurezza.

La difficoltà è costituita dal fatto che la natura fisica di questi fenomeni acustici naturali presenta una struttura complessa ma, soprattutto, che non si presenta come fenomeno unificato, ossia internamente omogeneo, ma come degli eventi che variano casualmente, da una rilevazione all’altra, in una maniera che può essere definita statisticamente. L’ipotesi di lavoro, che i ricercatori statunitensi hanno sottoposto a verifica sperimentale, è stata che il sistema uditivo nella sua parte encefalica sia capace di codificare ed utilizzare secondo criteri statistici le informazioni critiche contenute negli stimoli sonori naturali.

La branca degli studi sulla percezione acustica che si occupa del riconoscimento di fenomeni legati a fuoco, pioggia e vento, descrive questi stimoli come appartenenti alla classe dei sound textures, ossia un insieme definito dalla struttura statistica del suono, che può essere rilevato e riconosciuto attraverso l’integrazione di sintesi statistiche basate su medie temporali. Da scoprire dove e come possano essere codificate le sintesi statistiche per creare rappresentazioni di tali stimoli acustici naturali nelle strutture del sistema che va dall’VIII paio dei nervi cranici alla corteccia temporale, passando per i tubercoli inferiori (collicoli inferiori) della lamina quadrigemina e per i corpi genicolati mediali.

Lo studio nel coniglio sveglio, usando stimoli acustici naturali e varianti sintetiche con statistica ridotta, ha dimostrato che le sintesi statistiche modulano la correlazione tra insiemi di neuroni organizzati per frequenza specificamente nella sede del collicolo inferiore.

Queste correlazioni statistiche di insiemi neuronici catturano la struttura di suoni di alto ordine e consentono un’accurata decodifica neurale nelle singole prove di riconoscimento con evidenza di tempi di accumulo prossima a un secondo.

In contrasto, l’attività media all’interno dell’insieme neuronico (spettro neurale) fornisce un segnale veloce (decine di millisecondi) e saliente, fondamentale per l’identificazione della struttura.

È interessante notare che studi della percezione su “ascoltatori umani” rivelano un trend analogo: lo spettro del suono è integrato rapidamente e serve come uno stimolo saliente per la discriminazione, mentre le statistiche dei suoni di alto ordine sono integrate lentamente e forniscono un contributo maggiore per il riconoscimento.

I risultati rilevati, nel loro insieme, suggeriscono che stimoli sonori statistici, quali lo spettro del suono e la struttura di correlazione sono rappresentate da distinte risposte statistiche nelle popolazioni neuroniche del mesencefalo uditivo, e che queste risposte statistiche neurali possono avere ruoli e scale temporali dissociabili per il riconoscimento e la discriminazione di suoni naturali.

L’autore della nota ringrazia la dottoressa Isabella Floriani per la correzione della bozza e invita alla lettura delle recensioni di argomento connesso che appaiono nella sezione “NOTE E NOTIZIE” del sito (utilizzare il motore interno nella pagina “CERCA”).

Lorenzo L. Borgia

BM&L-28 novembre 2020

www.brainmindlife.org

________________________________________________________________________________

La Società Nazionale di Neuroscienze BM&L-Italia, affiliata alla International Society of Neuroscience, è registrata presso l’Agenzia delle Entrate di Firenze, Ufficio Firenze 1, in data 16 gennaio 2003 con codice fiscale 94098840484, come organizzazione scientifica e culturale non-profit.

[1] Note e Notizie 12-09-15 Il mistero della consonanza musicale risolto in chiave biologica.